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摘 要 
本 文 提 出 一 个 名 为 滑动 均值 的 聚 类 算法 ， 尝 试 蔡 代 常用 的 k 均 值 算 法 。 滑 动 均值 能 处 理 大 量 的 样 
本 , 自行 决定 类 别 数量 , 用 混 洗 样 本 来 避免 出 现 很 差 的 中 心 点 ,能够 中 途 裁减 类 别 数量 ， 聚 类 效果 显著 
好 于 k 均 值 。 在 高 尾 花 数据 和 手写 数字 数据 上 , 滑动 均值 的 聚 类 效果 比 k 均 值 分 别 高 9.93 负 和 5.17 双 。 
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Abstract 
'This paper proposes a novel clustring algorithm named Sliding Means, aiming to take the place 
of k-means algorithm which is widely used in internet applications. Sliding means has the ability to 
handle with very large datasets, and to automatically determine the number of clusters. With the help 
of shuffling samples, bad initial centroids have little chance to be selected. Sliding means is also able to 
drop some bad centroids on the fly. On the iris dataset and optdigits dataset, sliding means achieves 
better performance(Adjusted Rand Index) than k-means by 9.9396 and 5.1796 respectively. 
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1. 引言 


随 着 深度 学 习 的 快速 发 展 ,互联 网 业务 中 的 推荐 系统 、 计 算 机 视觉 、 自 然 语 言 处 理 都 广泛 使 

用 嵌入 技术 ,， 图片、 视频 、 文 本 、 用 户 、 物 品 都 逐渐 转换 成 了 向 量 , 相互 之 间 可 以 方便 地 计算 2 

离 , 从 而 聚 类 需求 多 了 起 来 。 例 如, 最 近 天 猫 披露 其 推荐 系统 通过 对 最 近 几 天 的 商品 向 量 聚 类 P, 

来 获取 用 户 的 多 个 兴趣 向 量 。 

互 网 联 应 用 中 ， 用 户 数量 和 待 聚 类 的 样本 数量 通常 很 大 ， 动 辑 上 亿 ， 这 就 要 求 聚 类 算法 能 
够 处 理 很 多 的 样本 。scikit-learn 手 册 7> 中 比较 了 常用 的 10 种 聚 类 算法 ， 能 够 处 理 很 多 样本 的 算法 
有 k 均 值 外 、DBSCAN 和 内 和 OPTICS 辐 。 这 3 种 算法 中 , k 均 值 的 使 用 相对 更 广泛 。 但 k 均 值 有 个 缺点 : 
性 能 依赖 于 k 个 初始 中 心 点 的 质量 。 因 此 ,中 心 点 的 初始 化 方法 成 为 提高 性 能 的 关 锡 

”2019 年 11 月 26 日 提交 . 
1) https://scikit-learn.org/stable/modules/clustering.html#adjusted-rand-index 
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图 1: 滑动 均值 的 中 心 点 更 新 轨迹 。 蓝 点 的 是 样本 , 小 圆圈 内 的 蓝 点 是 起 始 中 心 点 , 小 三 角形 最 终 
得 到 的 中 心 点 ct c2, cs。3 个 虚线 大 圆 是 以 3 个 中 心 点 为 圆心 、 以 指定 距离 为 半径 绘制 。 
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本 文 从 解决 初 值 依赖 性 出 发 , 设计 了 一 个 滑动 均值 算法 , 采用 一 些 新 的 技巧 : 将 类 别 数 量 | 
人 为 指定 改 为 算法 自主 决定 、 混 洗 样本 以 避免 选 出 很 差 的 中 心 点 、 中 途 裁 减 中 心 点 数量 ,从 而 实 
现 能 够 处 理 比 k 均 值 更 多 的 样本 ， 达 到 更 高 的 性 能 。 在 韵尾 花 数 据 和 手写 数字 数据 上 ， 滑 动 均值 
的 聚 类 效果 (Adjusted Rand Index 0) 比 k 均 值 分 别 高 9.93% 和 5.17%。 

本 文 后 续 内 容 这 样 组 织 。 第 2 节 是 相关 工作 , 第 3 节 给 出 滑动 均值 的 具体 步骤 , 第 4 节 实 验 给 
芒 尾 花 数 据 和 手写 数字 数据 集 上 的 测试 结果 , 第 5 节 总 结合 文 。 


2. 相关 工作 


聚 类 是 机 器 学 习 的 基础 课题 , 机 器 学 习 教 科 书 由 都 会 讲解 若干 种 成 熟 的 聚 类 方法 , 例如 k 均 
值 聚 类 、 层 次 聚 类 、 密 度 聚 类 , AED. (EMATLABP 、scikit-learn?) 、scipy3) 等 机 器 学 习 软 
件 中 , k 均 值 的 初始 化 方法 默认 选用 K-means++ 器 ， 备 选项 还 有 随机 选取 k 个 样本 作为 中 心 点 、 按 
照 均 匀 分 布 或 者 高 斯 分 布 随机 选取 中 心 点 。K-means++ 也 是 随机 选取 中 心 点 , 但 会 采取 措施 使 中 
心 点 尽量 相互 远离 , 在 一 定 程度 上 解决 初 值 依赖 性 。Canopy 聚 类 中 不必 指定 簇 的 数量 , 适合 并 行 
计算 。MIND 加 改造 胶囊 网 络 , 用 于 商品 向 量 聚 类 。 


3. 滑动 均值 


NN 个 样本 记 为 z1,x2,...,zN, 每 个 样本 zi 都 是 一 个 向 量 。 滑 动 均 聚 类 的 任务 是 将 所 有 样本 分 成 
若干 类 , 使 同类 的 样本 相互 靠近 , 不 同类 的 样本 相互 远离 。 

滑动 均值 聚 过 程 为 : 生成 若干 初始 中 心 点 一 迭代 若干 轮 直 至 中 心 点 达到 稳定 状态 一 根据 聚 
类 效果 调整 中 心 点 数量 一 如 果 中 心 点 过 少 , 那么 重新 生成 中 心 点 , 如 果 中 心 点 过 多 , 那么 裁减 中 
心 点 。 

生成 初始 中 心 点 。 直观 上 来 看 , 中 心 点 周围 应 该 聚焦 一 些 样本 点 。 选 取样 本 zj 作为 第 一 个 中 
心 点 ， 记 为 a。 再 指定 一 个 半径 gc0。 按 下 标 顺序 检查 每 一 个 样本 xi,i = 1,2,.…., 和 NN， 如 果 zi 与 中 心 
点 ci 的 距离 小 于 等 于 半径 co, 那么 将 样本 zi 标记 为 第 1 类 ,并 用 zx; 来 更 新 中 心 点 c1, 使 中 心 点 cl 向 样 
本 zi 滑动 一 点 点 ; 如 果 样本 zi 与 中 心 点 c1 的 距离 大 于 半径 co， 那么 将 xz; 做 为 一 个 新 的 中 心 点 ca， 并 


将 zi 标记 为 第 2 类 。 假 设 已 经 生成 了 K 个 中 心 点 c1, c.. 


1) https://ww2.mathworks.cn/help/stats/kmeans.html?requestedDomain=cn 
2) https://scikit-learn.org/stable/modules/generated /sklearn.cluster.KMeans.html#sklearn.cluster.KMeans 
3) https:/ /docs.scipy.org/doc/scipy /reference/ generated /scipy.cluster.vd.kmeans2.html#scipy.cluster.vq.kmeans2 


.,CK。 计 算 样本 xz; 与 中 心 点 cl on... 


CK 
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间 的 距离 ， 如 果 zi; 落 在 至 少 1 个 中 心 点 的 半径 之 内 ,那么 找 出 与 样本 zx; 距离 最 近 的 中 心 点 cp， 然后 


将 样本 zi 标记 为 第 k 类 ,并 用 zx; 来 更 新 中 心 点 cp, 使 中 心 点 cx 向 样本 zi 滑动 一 点 ; 如 果 样 本 zi 在 所 有 
中 心 点 的 半径 之 外 ,那么 将 xz; 做 为 一 个 新 的 中 心 点 cxj1， 并 将 xi; 标记 为 第 K +1 类 。 这 样 进 行 下 去 ， 


直至 将 所 有 的 样本 检查 一 遍 。 严谨 的 步骤 见 算法 1。 

图 1 可 以 直观 说 明生 成 初始 中 心 点 的 过 程 。 肉 眼 观察 , 所 有 18 个 样本 应 当 聚 为 3 类 , 3 类 样本 分 
别 位 于 3 个 虚线 大 圆 内 。 以 红色 大 圆 内 的 样本 为 例 , 中 心 点 cz 的 取 值 最 开始 是 红色 小 圆 内 的 样本 ， 
随 着 检查 的 进行 ,cz 按 着 红色 折线 一 步 步 地 滑动 到 红色 小 三 角形 内 。 
法 1 中 , 不 直接 指定 半径 co, 而 指定 一 个 系数 ", 通过 r 乘 以 样本 方差 co 间 
以 在 一 定 程度 降低 猜测 半径 的 难度 。 中 心 点 数量 开 不 用 人 为 指定 ,算法 会 自动 决定 其 取 值 。 第 3 行 
的 函数 dist( -) 代 表 两 点 之 间 的 距离 , 可 以 是 欧式 距离 、 余 弦 距 离 或 者 别 的 距离 。 第 4-9 行 新 增 一 个 
中 心 点 。 第 10712 行 是 中 心 点 的 滑动 操作 : 第 10 行 选 出 zi 归属 的 中 心 点 ci, 第 11 行 将 中 心 点 上 的 样 
本 数量 加 1, 第 12 行 将 样本 zi 按 权 重 加 到 中 心 点 cs 上 , 完成 滑动 。 第 12 行 公式 中 的 权重 系数 等 1 和 二 保 
证 滑动 更 新 得 到 的 中 心 点 恰好 是 该 类 样本 的 均值 。 
算法 1: init(), 生成 初始 中 心 点 


A 


A 


接 到 半径 , 这 样 做 可 


IT 


算法 2: trian_oneepoch(.)， 进 行 一 轮训 练 


Input: 正 实 数 r，N 个 样本 zi,zz,.….,zN。 Input: 中 心 点 数量 K， 中 心 点 c1,c2,...,ck， 各 
Output: 中 心 点 数量 K， FH Ee, c2)...,cK; 类 中 样 本 的 数量 n1,n2,... ,nk。 
TOSS 的 样 本 数量 Hmni,n3,..., Ko Output: 中 心 点 clca, ,crg， 各 类 中 样本 的 数 
2 ji 2 一 工 A 2 o2 = r202, ENI, n3,... NKO 
DLL à 人 1 对 k=1,2,...,K, 4c Ck, N? = Nk, Nk = 0o 
nı =0, K =1, dubie = ze 2 for i=1:N do 
2 for i=1:N do 3 计算 距离 djj, = dist(x;, cp), k = 1,2,..., Ko 
3 计算 距离 ix = dist(x;, cp), k = 1,2,..., Ko j k = arg min | (di) 
4 if 对 Yk = 1,2,..., KY] A d2, > o2 then ` üp-upkl 
i k=k pi . 6 if nj < n? then 
6 增加 一 个 中 心 点 ck = zi 7 | Cj = cid ng Gn =c?) 
7 NK 一 0 
dir = distana) k= 13 s K S UN ; 
ó end 9 | Cj — " Ch T ng ”i 
10 k = arg min (dik) 10 end 
11 n; =n +1 11 end 
m eg = leg + taa 12 for k=1: K do 
ia end 13 if nj, <n p Hank > 1 then 
14 | ck 一 a Ck 一 ni E c? 
15 end 
16 end 
算法 1 生成 的 中 心 点 , 可 能 还 不 稳定 , 需要 再 训练 几 轮 , 一 轮训 练 过 程 见 算法 2。 算 法 2 的 输入 
是 算法 1 中 得 到 的 中 心 点 数量 K、 各 类 的 中 心 点 c1,c2,...,cK 和 各 类 中 样本 的 数量 n,mn2,...,nx， 输 
出 是 滑动 更 新 后 的 中 心 点 和 各 类 样本 的 数量 。 算 法 2 中 ， 第 1 行将 和 ne 作为 旧 值 保存 下 来 ,以便 
在 后 续 更 新 c 和 nx 时 使 用 。 第 5 行 对 样本 计数 , 一 直 累 加 ， 当 本 轮 的 样本 数量 nj 小 于 等 于 前 轮 样本 
数量 ngs 时， 用 第 7 行 的 公式 使 中 心 点 向 当前 样本 滑动 一 点 点 ; 当 本 轮 的 样本 数量 nk 大 于 前 轮 样本 
数量 "8 时 ， 用 第 9% 行 的 公式 使 中 心 点 向 当前 样本 滑动 一 点 点 。 在 所 有 样本 都 参与 滑动 以 后 ， 如 果 
本 轮 数 量 n 小 于 前 轮 数量 ng 时 ,用 第 14 行 的 公式 进行 最 后 一 次 滑动 ,此 时 旧 中 心 点 必 参 与 了 计算 。 
第 7、9、12 行 的 三 个 公式 能 够 保证 滑动 更 新 得 到 的 中 心 点 恰好 是 该 类 样本 的 均值 。 
用 算法 2 迭代 若干 轮 达 到 稳定 状态 以 后 ， 再 根据 相 COR Ero TE 心 点 数量 还 


是 减少 中 心 点 数量 。 如 果 觉 得 中 心 We 那么 


如 果 觉 得 中 心 点 太 多 了 ，, 那么 将 实数 r 调 大 一 


那么 用 算法 3 裁减 掉 一 些 。 


要 将 实数 r 调 小 一 些 


， 从 算法 1 重新 开始 。 


AES 如 果 中 心 点 数量 多 得 不 太 多 ， 


裁减 中 心 点 。 算 法 3 的 输入 参数 中 ， 中 心 点 clca,…….,cg 和 样本 数量 mna, ,nk 都 是 算法 2 的 
输出 ， 类别 数量 上 限 为 开 需 要 手动 指定 ,显然 有 民 < 天 。 输 出 是 天 个 中 心 点 cl c... cp KAER 
数量 n1,n2,...,ng。 第 178 行 删除 那些 没有 样本 归附 的 中 心 点 。 第 10714 行 去 掉 样本 数量 最 少 的 那个 
中 心 点 , 然后 进行 若干 轮训 练 ， 当 新 旧 中 心 点 的 相对 距离 小 于 e 时 (第 18 行 ), 停止 训练 。 


综合 本 节 的 描述 ,就 能 得 到 滑动 均值 聚 类 的 全 过 程 ， 具体 写 出 来 就 算法 5。 算 法 5 中 不 显眼 但 
重要 的 操作 是 混 洗 样 本 , 第 1 行 的 混 洗 , 使 得 初始 中 心 点 具有 随机 性 , 避免 陷入 某 个 局 部 最 优 解 。 
第 4 行 的 混 洗 能 显著 提高 聚 类 效果 。 特 别 注意 ,裁减 中 心 点 的 算法 3 中 没有 混 洗 样本 ， 否 则 会 显著 
降低 聚 类 效果 。 


批量 训练 . 由 算法 5 可 知 , 实际 计算 过 程 中 , 生成 初始 中 心 点 的 函数 init(.) 只 调用 1 次 , 而 训练 函 
数 trian_oneepoch(.) 会 调用 很 多 次 ， 但 trian_oneepoch(.) 每 步 只 处 理 一 个 样本 ， 不 能 充分 利用 CPU 的 
向 量化 计算 能 力 、 内 存 的 按 块 读 写 能 力 。 因 此 , 将 算法 2 改写 算法 4, 每 步 处 理 $ > 1 个 样本 。 样 本 
与 中 心 点 之 间 的 距离 带 来 的 计算 量 占 算法 2 计算 量 的 绝 大 部 分 ,批量 处 理 后 ,算法 4 的 第 3 行 比 算 
法 2 的 第 3 行 的 单 步 计算 量 增 加 5 倍 , 函数 dist(,) 的 调用 次 数 减少 至 原来 的 村 , 大 幅 提 高 代码 运行 速 
度 。 


$ 算法 3: cutcentroid(.)， 裁 减 类 中 心 算法 4: trian_oneepoch_batch(-), 一 轮 批量 训练 
s Input: 类 别 数量 上 限 为 Kk， 类 别 数量 K, 中 心 Input: 样本 zx1,z2,...,zN， 类 别 数量 K， 类 中 
pem Hici,C2,...,CK» 各 类 中 样本 的 数 心 cl C2,...)CK; 各 类 中 样本 的 数 
1 HÉni,na2,...,nK» Eni,n2,...,nx» ES > 1. 
Output: 类 中 心 cl c2,..., CR? 各 类 中 样本 的 数 Output: 类 中 心 c1,co,...,ckx， 各 类 中 样本 的 数 
量 nj,n2,...,ng。 量 n1,n2,...,nk 
i for k=1:K do i 对 k= 1,2,...,K, 4c? Ck ,ng = Nk, Np —0 
2 if nj, = 0 then 2 for i—1:5:N do 
3 去 掉 cy 和 ny。 3 dj, = dist(zj,cy),k = 1,2,..., K,j = 
i Kcd. ii+l,... min(N i -S—1) e 
5 剩余 的 中 心 点 重新 编号 4 fork=1:K do 
为 cl cz,...,ck。 5 4T f&B, = (zj|djy = minÉ 4 (dj)))« 
6 剩余 的 样本 数 重量 新 编号 6 B* 中 的 元 素数 量 记 为 n?。 
为 ni1,n2,...,nk。 7 ny — ny +N}, 
Q - end 8 if nb > 0 且 mk € n? then 
s end 9 cp = cp — o t Yr 
ə while k < K do SUE 
10 k = arg minÉ (rn) B Han 
i dB Ring 11 if n? > 0 且 m — n}, < n2 < nj then 
nk Np Nk tN 


= o 1 
12 K=K-l1. 12 Ck n, Ck "t Ch n MES, 


k rEBE 


13 剩余 的 中 心 点 重新 号 为 cl co,...,ck。 " wä 
RR WERA E RC i Nnn... ngo 
14 FIR HR 本 数 新 编号 为 1,72, JUK dà if n? > 0 且 m2 « ny — nb then 
15 for i= 1: M do ny—nb 1 
16 T ues k= Loi Ka Wt 
17 jtrian_oneepoch(-) 训 练 一 轮 。 35 end 
K 
È lese? , 17 end 
18 if = - « c^ then 
K K end 
È llel? 35 legl? i 
"i d 循环 19 for k — 1: K do 
JE Hf s : 
19 | H forf) > 20 if nk < n? Png > 1 then 
20 end n? n$?—ny 
21 Ck = nP Ck ue 2 [74 
21 end ii ? 
22 end 
22 end 


23 end 
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算法 5: slidingmeans(.)， 滑 动 均值 聚 类 全 过 程 
Input: 样本 x1, x2,...， znN， 最 大 训练 步 数 M， 最 大 误差 。 > 0, 269 ER. 
Output: 中 心 点 cp 和 各 类 样本 数量 nj, k—1,2,..., Le 
混 洗 样本 zx1, 22,..., ZN， 按 混 洗 后 的 顺序 将 样本 仍然 记 为 zi 22, . . ., ZN。 
jinit(.) 进 行 初始 化 。 
fori —1: M do 
混 洗 样本 z1, zx2,.….， ZN。 
]trian.. PESE ) 训 练 一 轮 。 
b» lex —eg II? 
6 if < e? then 
b Ies LI? + 之 leg LI? 
T | Tk 出 for 循 环 。 


8 end 


a D w N H 


9 end 
10 if K > K then 
11 jcutcentroid(.) 裁 减 中 心 点 。 


12 else 


小 ro， 从 第 2 行 开始 重新 计算 。 


m 
w 

ai 
zH 


14 end 


4. 实验 


滑动 均值 与 k 均 值 都 属于 均值 聚 类 算法 ,因此 可 以 用 k 值 作为 基准 来 衡量 滑动 均值 的 性 能 。 

本 节 对 比 滑 动 均 值 与 k 均 值 在 Fisher 的 营 尾 花 (iris) 数 据 集 由 和 手写 数字 (optdigits) 数 据 集 0 上 
的 性 能 。 营 尾 花 数据 集 可 从 四 获得 ， 它 包含 了 150 个 意 尾 花样 本 ， 每 个 样本 有 4 个 特征 : 花 苯 长 
度 (sepal length)、 花 苯 宽 度 (sepal width). IFK JÈ (petal length). 4&3 9 JZ (petal width)。 同 时 标明 
了 样本 来 自 三 种 意 尾 属 植物 中 的 哪 一 种 : Iris Setosa, Iris Versicolour Iris Virginica, 每 种 50 个 样本 。 
手写 数字 数据 集 可 从 四 获得, 它 的 训练 集 和 测试 分 别 包含 3823 和 1797 个 样本 ， 本 节 使 用 的 是 它 的 
训练 集 。 每 个 样本 包含 64 个 0716 的 整数 ， 代 表 8x8 的 位 图 ， 样 本 同时 标明 了 属于 079 之 间 的 哪个 数 
字 。 

样本 与 中 心 点 之 间 的 距离 有 多 种 ,这 里 选择 欧式 距离 和 余弦 距离 两 种 。k 均 值 采 用 MATLAB 
"T R2019b 自 带 的 函数 kmeans 和 scikit-learn 0.21.3 自 带 的 函数 KMeans, kmeans 同 时 支持 欧式 距离 和 余弦 
"x 距离 , KMeans 只 支持 欧式 距离 。k 均 值 的 初始 化 方法 选用 2 种 : kmeans + 十 、 随 机 选择 k 个 样本 做 为 
初始 中 心 点 。 

聚 类 性 能 评价 指标 使 用 Adjusted Rand Index (ARI) l1!1。ARI 是 一 个 实数 ， 若 按 均匀 分 布 随 机 
给 样本 指定 类 别 , 那么 ARI 接 近 0.0。 如 果 聚 类 结果 与 真实 标签 相 接 近 , 那么 ARI 为 正 ,， 如 果 聚 类 结 
果 与 真实 标签 完全 相同 ,那么 ARI 为 1.0. 

每 种 算法 配置 下 运行 10000 次 ,滑动 均值 的 ARI 和 均值 的 ARI 列 在 了 表 1。 表 中 第 174 对 应 音 尾 
花 数据 集 , 第 578 行 对 应 手写 数字 数据 集 。 第 1 列 和 第 5 列 中 的 sc 代表 滑动 均值 , km 代表 k 均 值 , cos 代 
表 余 弦 距离 ,euc 代 表 欧 式 距离 ，plus 代 表 k-means 二 十 初始 化 方法 , rand 和 sample 代 表 随 机 选取 初始 
中 心 点 ，matlab 代 表 MATLAB 自 带 函 数 kmeans，sklearn 代 表 scikit-learn 自 带 的 函数 KMeans。 

对 意 尾 花 数 据 集 ， 将 10000 运 行 得 到 的 ARI 从 小 到 大 排序 ， 其 变化 走势 在 图 2。 从 表 1 中 可 以 
看 出 ， 在 蕊 尾 花 余弦 距离 配置 下 ， 滑 动 均 值 的 平均 ARI 是 0.9094， 比 k 均 值 的 0.8161 高 0.0993; 从 
图 2(a-c) 可 知 ， 滑 动 均 值 的 ARI 小 于 0.9039 的 比例 只 占 1.75%， 而 k 均 值 的 ARI 小 于 0.9039 的 比例 分 别 
占 19.33% 和 24.69%。 在 芒 尾 花 欧式 距离 配置 下 , MATLAB 版 Kk 均值 的 ARI 明 显 低 scikit-learn 版 ,滑动 
均值 的 ARI 平 均值 是 0.7254, 比 scikit-learn 版 k 均 值 小 0.0048。 从 图 2(d-h) 可 以 看 出 , MATLAB 的 kmeans 
的 ARI 均 值 是 0.7163, 小 于 0.7162 的 比 列 分 别 为 8.67% 和 21.00%; scikit-learn 的 KMeans 的 ARI 最 小 值 是 0.7163， 


表 1: 滑动 均值 与 k 均 值 的 ARI 比 较 


意 尾 花 上 的 算法 配置 | 平均 最 小 最 大 | 手写 数字 上 的 算法 配置 | 平均 最 小 最 大 


SC_COS 0.9094 | 0.886 | 0.9222 SC_COS 0.6648 | 0.4969 | 0.782 

km. cosplus. matlab 0.8161 0.4394 0.9039 km cosplus.matlab 0.627 0.4454 0.7756 
km.cossample.matlab | 0.7907 0.4394 0.9039 km.cossample.matlab 0.6241 0.4204 0.7154 
Sc.euc 0.7254 | 0.6898 | 0.8176 Sc.euc 0.7299 | 0.5691 | 0.7872 


km. eucplus.matlab 0.6975 0.4197 0.7302 km. eucplus. matlab 0.6312 0.4428 0.7789 


km.eucsample matlab | 0.6614 0.4197 0.7302 km. eucsample. matlab 0.6289 0.4685 0.716 


km.eucplus.sklearn 0.7302 | 0.7163 | 0.7302 km.eucplus.sklearn 0.6782 0.6 0.6883 


km. eucrand.sklearn 0.7302 | 0.7163 | 0.7302 km. eucrand.sklearn 0.6765 0.581 0.7765 


等 于 0.7163 的 比例 分 别 是 0.31% 和 0.61%。 


概括 来 说 , 高 尾 花 数据 集聚 类 ,应 该 选用 余弦 距离 ,滑动 均值 的 ARI 比 k 均 值 高 9.93%。 
对 手写 数字 数据 集 , 将 10000 运 行 得 到 的 ARI 作 成 直方 图 , 见 图 3, 横 轴 是 ARL, 纵 轴 是 落 在 对 应 


小 区 间 的 数字 个 数 . 图 3 的 每 张 图 片 中 都 显示 出 几 个 接近 正 态 分 布 的 形状 , 说 明 10000 次 运行 已 经 能 
够 反映 滑动 均值 和 k 均 值 性 能 的 全 貌 。 观察 表 1 的 第 5-8 列 , 在 手写 数字 余弦 距离 配置 下 , 滑动 均值 的 


E 


平均 ARI 是 0.6648, 高 于 k 均 值 的 0.627。 在 手写 数字 欧式 距离 配置 下 , 滑动 均值 的 平均 ARI 是 0.7299， 


Ek 均值 的 ARI 0.6782 高 0.0517。 仔 细 对 比 图 3(dg) 发 现 ， 滑 动 均值 的 ARI 有 53.37% 的 比例 超过 0.75， 


而 k 均 值 的 ARI 均 小 于 0.75. 


概括 来 说 , 手写 数字 数据 集聚 类 ,应 该 选用 欧式 距离 , 滑动 均值 的 ARI 比 k 均 值 高 5.17%。 


5. 总 结 与 讨论 


滑动 均值 有 以 下 几 个 优点 。 
内 存 需 求 少 。 聚 类 过 程 中 , 只 需要 保存 K 个 中 心 点 向 量 、K 个 旧 中 心 点 向 量 和 O(K) 个 标量 , 内 


存 需 求 量 比 均值 持平 。 


计算 量 小 。 对 滑动 均值 和 k 均 值 来 说 , 每 一 轮训 练 的 绝 大 部 分 计算 量 来 自 于 中 心 点 与 样本 间 


的 距离 计算 。 因 为 滑动 均值 训练 过 程 中 使 用 的 中 心 点 数量 比 最 终 得 到 的 中 心 点 数量 稍 多 一 些 , 但 
不 会 超过 50% 《和 否则 要 重新 生成 初始 中 心 点 )， 所 以 滑动 均值 一 轮 的 计算 量 与 k 均 值 相当 。 裁 减 中 
心 点 时 , 每 裁减 一 个 中 心 点 , 都 要 训练 兰 干 轮 。 考 虑 到 减少 一 个 中 心 点 对 聚 类 的 影响 不 太 特 别 大 ， 


y 


的 上 限 是 k 均 值 计算 量 的 m 十 1 倍 


1 练 少数 几 轮 就 可 以 收敛 。 假设 初始 中 心 点 数量 比 最 终 中 心 点 数 多 m 个 , 那么 滑动 均值 的 计算 量 


不 用 指定 类 别 数量 。 滑动 均值 会 根据 指定 的 半径 自行 决定 类 别 数量 。 
性 能 好 于 k 均 值 。 在 高 尾 花 数据 集 和 手写 数字 数据 上 的 测试 结果 已 经 说 明了 这 一 点 。 
滑动 均值 需要 在 更 多 的 数据 集 上 测试 ， 以 便 观察 其 特点 ， 进 一 步 提 高 聚 类 效果 、 减 少 计算 


lim] 
四 
o 
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3: 滑动 均值 和 k 均 值 在 手写 数字 上 的 性 能 。(a)-(c) 采 用 余弦 距离 ，(d)-(h) 采 用 欧式 距离 。 


